As machine translation (MT) metrics improve their correlation with human judgement every year, it is crucial to understand the limitations of such metrics at the segment level. Specifically, it is important to investigate metric behaviour when facing accuracy errors in MT because these can have dangerous consequences in certain contexts (e.g., legal, medical). We curate ACES, a translation accuracy challenge set, consisting of 68 phenomena ranging from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. We use ACES to evaluate a wide range of MT metrics including the submissions to the WMT 2022 metrics shared task and perform several analyses leading to general recommendations for metric developers. We recommend: a) combining metrics with different strengths, b) developing metrics that give more weight to the source and less to surface-level overlap with the reference and c) explicitly modelling additional language-specific information beyond what is available via multilingual embeddings.
translated by 谷歌翻译
神经指标与机器翻译系统评估中的人类判断达到了令人印象深刻的相关性,但是在我们可以安全地针对此类指标进行优化之前,我们应该意识到(并且理想地消除)偏向获得高分的不良翻译的偏见。我们的实验表明,基于样本的最小贝叶斯风险解码可用于探索和量化此类弱点。在将此策略应用于彗星进行ende和de-en时,我们发现彗星模型不足以差异和命名实体差异。我们进一步表明,通过简单地培训其他合成数据并发布我们的代码和数据以促进进一步的实验,这些偏见很难完全消除。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉,自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。记录了大量的临床记录,但是对于在小型医院收集的数据或处理罕见疾病的数据仍可能稀缺数据和标签。在这种情况下,对较大的未标记临床数据进行预训练可以提高性能。在本文中,我们提出了专为异质的多模式临床数据设计的新型无监督的预训练技术,用于通过蒙版语言建模(MLM)启发的患者预测,通过利用对人群图的深度学习来启发。为此,我们进一步提出了一个基于图形转换器的网络,该网络旨在处理异质临床数据。通过将基于掩盖的预训练与基于变压器的网络相结合,我们将基于掩盖的其他域中训练的成功转化为异质临床数据。我们使用三个医学数据集Tadpole,Mimic-III和一个败血症预测数据集,在自我监督和转移学习设置中展示了我们的预训练方法的好处。我们发现,我们提出的培训方法有助于对患者和人群水平的数据进行建模,并提高所有数据集中不同微调任务的性能。
translated by 谷歌翻译
预训练在机器学习的不同领域表现出成功,例如计算机视觉(CV),自然语言处理(NLP)和医学成像。但是,尚未完全探索用于临床数据分析。即使记录了大量的电子健康记录(EHR)数据,但如果数据收集到小型医院或处理罕见疾病的交易,数据和标签也可能稀缺。在这种情况下,对较大的EHR数据进行预训练可以改善模型性能。在本文中,我们将无监督的预培训应用于异质的多模式EHR数据,以预测患者。为了对这些数据进行建模,我们利用大量的人群图表。我们首先设计基于图形变压器的网络体系结构,旨在处理EHR数据中发生的各种输入特征类型,例如连续,离散和时间序列特征,从而允许更好的多模式数据融合。此外,我们设计基于蒙版的插入方法的预训练方法,以在对不同的最终任务进行微调之前对网络进行预培训。预训练是以一种完全无监督的方式进行的,这为未来具有不同任务和类似方式的大型公共数据集预先培训奠定了基础。我们在两个患者记录的医学数据集(Tadpole和Mimic-III)上测试我们的方法,包括成像和非成像功能以及不同的预测任务。我们发现,我们提出的基于图形的预训练方法有助于在人群水平上对数据进行建模,并进一步改善Mimic的AUC方面的AUC,平均AUC的性能,而Tadpole则为7.64%。
translated by 谷歌翻译
We develop a simple framework to learn bio-inspired foraging policies using human data. We conduct an experiment where humans are virtually immersed in an open field foraging environment and are trained to collect the highest amount of rewards. A Markov Decision Process (MDP) framework is introduced to model the human decision dynamics. Then, Imitation Learning (IL) based on maximum likelihood estimation is used to train Neural Networks (NN) that map human decisions to observed states. The results show that passive imitation substantially underperforms humans. We further refine the human-inspired policies via Reinforcement Learning (RL) using the on-policy Proximal Policy Optimization (PPO) algorithm which shows better stability than other algorithms and can steadily improve the policies pretrained with IL. We show that the combination of IL and RL can match human results and that good performance strongly depends on combining the allocentric information with an egocentric representation of the environment.
translated by 谷歌翻译
尽管辐射学家常规使用电子健康记录(EHR)数据来形成临床历史并通知图像解释,但医学成像的大多数深度学习架构是单向的,即,它们只能从像素级信息中学习特征。最近的研究揭示了如何从像素数据中恢复种族,仅突出显示模型中的严重偏差的可能性,这未能考虑人口统计数据和其他关键患者属性。然而,缺乏捕获临床背景的成像数据集,包括人口统计学和纵向病史,具有偏远的多式化医学成像。为了更好地评估这些挑战,我们呈现RadFusion,一种多式联运,基准数据集1794名患者的相应EHR数据和高分辨率计算断层扫描(CT)扫描标记为肺栓塞。我们评估了几个代表性的多模式融合模型,并在受保护的亚组中,例如性别,种族/种族,年龄的年龄。我们的研究结果表明,集成成像和EHR数据可以提高分类性能和鲁棒性,而不会在人口群之间的真正阳性率下引入大的差异。
translated by 谷歌翻译